음성-텍스트 변환 모델 성능 평가 안내서

1. 음성-텍스트 변환(STT) 모델 성능 평가의 중요성

1.1 STT 기술의 발전과 응용 분야

음성-텍스트 변환(Speech-to-Text, STT), 또는 자동 음성 인식(Automatic Speech Recognition, ASR) 기술은 인간의 음성을 기계가 이해하고 처리할 수 있는 텍스트 데이터로 변환하는 인공지능의 핵심 분야다. 이 기술은 수십 년에 걸쳐 발전해 왔으며, 초기에는 간단한 음성 명령을 인식하는 수준에 머물렀다.1 그러나 최근 딥러닝 알고리즘의 비약적인 발전과 방대한 양의 음성 및 텍스트 데이터, 즉 빅데이터의 활용 가능성이 증대되면서 STT 기술은 인간의 인식 능력에 근접하거나 특정 조건에서는 이를 능가하는 수준의 정확도를 달성하게 되었다.1

이러한 기술적 성숙은 STT의 응용 분야를 폭발적으로 확장시켰다. 오늘날 STT 기술은 우리 삶의 거의 모든 영역에 깊숙이 자리 잡고 있다.

첫째, 음성 사용자 인터페이스(Voice User Interface, VUI) 분야에서 STT는 인간과 기계 간의 상호작용 방식을 근본적으로 바꾸고 있다. 차량 내 시스템에서는 운전자가 “전화 걸기”, “라디오 채널 변경“과 같은 음성 명령을 통해 손과 눈을 운전에 집중하면서도 기기를 조작할 수 있게 한다.1 스마트홈 기기, 항공기 제어 시스템 등에서도 직접 음성 입력(Direct Voice Input)은 핵심적인 인터페이스로 활용된다.1

둘째, 생산성 향상 도구로서의 역할이 지대하다. 회의나 강의 내용을 실시간으로 기록하거나, 녹음된 오디오 파일을 검색 가능한 텍스트로 변환하는 작업은 STT 기술 없이는 막대한 시간과 노력이 소요된다.1 워드 프로세서나 이메일 작성 시 받아쓰기 기능을 활용하면 키보드 입력보다 훨씬 빠르게 문서를 작성할 수 있다.3

셋째, 보조 기술(Assistive Technology) 분야에서 STT는 신체적, 학습적 장벽을 가진 사용자들에게 새로운 가능성을 열어준다. 쓰기 장애(dysgraphia)나 난독증(dyslexia)을 가진 학생들은 손이나 키보드 대신 목소리를 사용하여 과제를 수행할 수 있으며, 이는 학습 격차를 해소하는 데 중요한 역할을 한다.2

넷째, 전문 분야에서의 활용이 두드러진다. 특히 의료 분야에서 STT는 의사가 환자와의 대화 내용을 실시간으로 전자의무기록(EMR)에 문서화하여 수기 작성에 소요되는 시간을 줄이고 환자 진료에 더 집중할 수 있도록 돕는다.4 정확한 임상 기록은 환자 치료의 연속성을 보장하고 법적 책임을 명확히 하는 데 필수적이므로, 의료 STT의 정확성은 매우 중요하다.4 또한, 건설 현장과 같이 작업자의 ‘눈과 손이 바쁜(eyes busy, hands busy)’ 환경에서는 음성을 통한 데이터 입력이 거의 유일한 대안이 될 수 있다.5

이 외에도 실시간 영상 자막 생성, 다국어 동시통역, 고객센터 통화 분석 등 STT 기술은 사회 전반의 소통 효율성과 정보 접근성을 높이는 데 핵심적인 기여를 하고 있다.6

1.2 성능 평가의 근본적인 역할

STT 모델의 응용 분야가 이처럼 다양하고 중요해짐에 따라, 모델의 성능을 객관적이고 신뢰할 수 있는 방법으로 평가하는 것의 중요성은 아무리 강조해도 지나치지 않다. 성능 평가는 단순히 모델의 우수성을 과시하기 위한 수단이 아니라, 기술 발전과 실용화를 위한 필수불가결한 과정이다.

성능 평가의 근본적인 역할은 다음과 같다.

첫째, 모델의 약점 식별 및 개선 방향 제시. 평가는 모델이 어떤 종류의 음성(예: 특정 억양, 빠른 발화, 배경 소음이 섞인 음성)에서 취약한지, 어떤 유형의 오류(예: 단어 대체, 누락)를 주로 범하는지를 정량적으로 보여준다.7 이러한 분석을 통해 연구자와 개발자는 모델의 아키텍처, 학습 데이터, 또는 후처리 과정을 어떻게 개선해야 할지에 대한 구체적인 단서를 얻을 수 있다.

둘째, 객관적인 벤치마킹 및 비교 분석. 표준화된 평가 지표와 데이터셋을 사용함으로써, 서로 다른 모델이나 시스템의 성능을 공정하게 비교할 수 있다.7 이는 특정 애플리케이션에 가장 적합한 모델을 선택하거나, 새로운 연구 방법론이 기존 방법론에 비해 얼마나 향상되었는지를 검증하는 데 필수적이다.

셋째, 사용자 만족도 및 신뢰도 확보. 최종 사용자의 관점에서 STT 시스템의 성능은 곧 제품의 품질을 의미한다. 의료 기록에서 치명적인 오타를 생성하거나, 음성 비서가 명령을 계속해서 잘못 알아듣는다면 사용자는 해당 기술을 신뢰하지 않을 것이다. 따라서 체계적인 성능 평가는 사용자에게 제공될 기술의 신뢰도를 보장하고, 잠재적인 위험을 사전에 관리하는 품질 보증(Quality Assurance) 활동의 핵심이다.4

넷째, 포용적이고 윤리적인 기술 개발. 성능 평가는 모델이 특정 인구 집단에 편향되어 있는지를 드러내는 중요한 도구다. 만약 평가 결과, 특정 지역의 억양이나 비원어민의 발음에 대해 오류율이 현저히 높게 나타난다면, 이는 해당 모델이 특정 집단을 기술적으로 소외시키고 있음을 의미한다.8 따라서 다양한 사용자 그룹을 포괄하는 데이터셋을 기반으로 한 평가는 기술의 포용성을 측정하고, 데이터 편향을 완화하며, 궁극적으로 더 공정하고 윤리적인 AI를 개발하는 데 기여한다.8

결론적으로, STT 모델의 성능 평가는 기술의 현재 상태를 진단하는 것을 넘어, 미래의 발전 방향을 결정하고, 기술이 사회에 미치는 영향을 긍정적으로 유도하는 나침반과 같은 역할을 수행한다. 초기 STT 연구가 순수한 기술적 정확도 향상에 집중했다면, 현대의 STT 평가는 그 패러다임이 점차 확장되고 있다. 이제 평가는 단순히 “모델이 얼마나 정확하게 단어를 변환하는가?“라는 질문을 넘어, “이 모델이 특정 사용자, 특정 상황, 특정 목적 하에서 얼마나 유용하고 신뢰할 수 있으며 공정한가?“라는 인간 중심적인 질문에 답해야 하는 다차원적인 과제로 진화하고 있다. 이는 보조 기술, 의료, 실시간 상호작용 등 인간의 삶과 밀접하게 연관된 분야에서 STT의 역할이 커짐에 따라 자연스럽게 나타나는 변화다.3

2. 정확도 평가의 핵심 지표

STT 모델의 성능을 정량적으로 평가하기 위해 다양한 지표가 사용되지만, 그중에서도 정확도를 측정하는 가장 기본적이고 널리 사용되는 지표는 단어 오류율(Word Error Rate, WER)과 문자 오류율(Character Error Rate, CER)이다. 이 두 지표는 모델이 생성한 텍스트(가설, hypothesis)가 인간이 직접 작성한 정답 텍스트(참조, reference 또는 ground truth)와 얼마나 다른지를 측정한다.

2.1 단어 오류율 (Word Error Rate, WER)

2.1.1 정의

단어 오류율(WER)은 STT 시스템의 성능을 평가하는 사실상의 표준(de facto standard) 지표로, 미국 국립표준기술연구소(NIST)에서도 ASR 시스템 평가에 사용을 권장한다.1 WER은 모델이 생성한 텍스트에서 발생한 단어 수준의 오류 수를 전체 정답 단어 수로 나눈 비율이다.12 따라서 WER 값이 낮을수록 모델의 정확도가 높다는 것을 의미하며, 완벽한 변환은 WER 0%에 해당한다.12

2.1.2 수학적 공식

WER은 세 가지 유형의 오류, 즉 대치(Substitutions), 삭제(Deletions), 삽입(Insertions)의 합계를 정답 텍스트에 포함된 총 단어 수(N)로 나누어 계산한다.12

$WER = \frac{S + D + I}{N}$
각 구성 요소의 정의는 다음과 같다.

$S$ (Substitutions, 대치): 정답 텍스트의 단어가 모델 예측에서 다른 단어로 잘못 인식된 경우다. 예를 들어, 정답이 “tax“인데 “Texas“로 인식했다면 대치 오류 1개에 해당한다.14
$D$ (Deletions, 삭제): 정답 텍스트에 있는 단어가 모델 예측에서 누락된 경우다. 예를 들어, 정답이 “sales tax“인데 “tax“로만 인식했다면 “sales“가 삭제되어 삭제 오류 1개에 해당한다.14
$I$ (Insertions, 삽입): 정답 텍스트에 없는 단어가 모델 예측에 불필요하게 추가된 경우다. 예를 들어, 정답이 “sales tax“인데 “sales tax of charge“로 인식했다면 “of“와 “charge” 두 단어가 삽입되어 삽입 오류 2개에 해당한다.14
$N$ (Number of words in reference, 정답 텍스트의 총 단어 수): 오류율을 정규화하기 위한 기준으로, 정답 텍스트의 전체 단어 수를 의미한다. $N$ 은 올바르게 인식된 단어 수(C)와 대치( $S$ ), 삭제( $D$ ) 오류 수의 합과 같다 ( $N = C + S + D$ ).16

2.1.3 계산 원리 (레벤슈타인 거리)

WER 계산의 핵심은 정답 텍스트와 예측 텍스트의 길이가 다를 수 있다는 문제를 해결하는 것이다. 이 문제는 동적 프로그래밍(dynamic programming) 기반의 레벤슈타인 거리(Levenshtein Distance) 알고리즘을 단어 수준에서 적용하여 해결한다.14 레벤슈타인 거리는 하나의 문자열을 다른 문자열로 변환하기 위해 필요한 최소한의 편집(삽입, 삭제, 대치) 횟수를 측정하는 알고리즘이다.14

WER 계산 과정에서는 두 텍스트를 단어 단위로 정렬(align)하여, 예측 텍스트를 정답 텍스트로 바꾸는 데 필요한 최소한의 대치, 삭제, 삽입 횟수의 합, 즉 $S + D + I$ 의 최솟값을 찾는다. 이 최소 편집 거리를 정답 텍스트의 총 단어 수 $N$ 으로 나누어 최종 WER을 산출한다.

2.1.4 WER의 한계

WER은 직관적이고 계산이 용이하여 널리 사용되지만, 몇 가지 명백한 한계를 가지고 있다.

첫째, 모든 오류를 동일한 가중치로 처리한다. WER은 문장의 의미에 치명적인 영향을 미치는 오류와 사소한 오류를 구분하지 않는다.14 예를 들어, “The patient should not take this medicine“이라는 문장에서 “not“이 삭제되는 것은 환자의 생명에 위협이 될 수 있는 심각한 오류다. 반면, “Take this medicine daily“에서 “daily“가 삭제되는 것은 상대적으로 덜 치명적이다. 하지만 WER 계산에서는 두 경우 모두 단어 하나가 삭제된 것으로 간주하여 동일한 오류로 처리한다.14

둘째, 오류의 근본적인 원인을 설명하지 못한다. WER 수치 자체는 왜 오류가 발생했는지에 대한 정보를 제공하지 않는다.12 오류의 원인은 화자의 독특한 억양, 동음이의어(“to”, “too”, “two”)의 혼동, 배경 소음, 음질 저하, 특정 분야의 전문 용어 등 매우 다양할 수 있으나, WER은 이러한 맥락을 고려하지 않는다.12

셋째, 직관적 해석의 어려움이 있다. 삽입 오류( $I$ )의 수는 정답 텍스트의 단어 수( $N$ )와 무관하므로, 모델이 불필요한 단어를 많이 생성하는 경우 WER은 1(또는 100%)을 초과할 수 있다.19 예를 들어, 정답이 2단어인데 모델이 10개의 엉뚱한 단어를 예측했다면 WER은 500%가 될 수 있다. 이는 WER이 ’비율’임에도 불구하고 0과 1 사이의 값으로 항상 제한되지 않아 해석에 주의가 필요함을 시사한다.19

2.2 문자 오류율 (Character Error Rate, CER)

2.2.1 정의 및 공식

문자 오류율(CER)은 WER과 근본적으로 동일한 원리를 적용하되, 평가의 단위를 단어(word)에서 문자(character)로 변경한 지표다.20 즉, 문자 수준에서 레벤슈타인 거리를 계산하여 예측 텍스트를 정답 텍스트로 변환하는 데 필요한 최소한의 문자 단위 대치, 삭제, 삽입 횟수를 측정한다.20

CER의 공식은 WER과 구조적으로 동일하다.

$CER = \frac{S_{char} + D_{char} + I_{char}}{N_{char}}$
여기서 각 항은 문자 수준에서의 대치, 삭제, 삽입 오류 수와 정답 텍스트의 총 문자 수를 의미한다.20

2.2.2 유용성

CER은 다음과 같은 상황에서 특히 유용하다.

첫째, 단어 경계가 불분명한 언어 평가. 중국어, 일본어, 태국어와 같이 띄어쓰기를 사용하지 않거나 단어의 구분이 형태론적으로 복잡한 언어에서는 단어 단위로 오류를 정의하기 어렵다.11 이런 언어들의 경우, 문자 수준에서 평가하는 CER이 훨씬 더 합리적이고 일관된 척도가 된다. 한국어와 같은 교착어에서도 어미나 조사의 미세한 변형으로 인한 오류를 평가하는 데 CER이 더 적합할 수 있다.

둘째, 미세한 오류의 정밀한 평가. WER은 단어 내에서 단 하나의 문자가 틀려도 전체 단어를 오류로 처리하기 때문에 철자 오류에 대해 매우 엄격한 패널티를 부과한다.19 예를 들어, “beautiful“을 “beutiful“로 잘못 인식한 경우, WER은 단어 하나가 통째로 틀렸다고 계산하지만, CER은 문자 ’a’가 삭제된 오류 하나로 계산하여 오류의 심각성을 더 세밀하게 반영한다. 이는 OCR(광학 문자 인식)이나 필기체 인식과 같이 문자 수준의 정확도가 중요한 작업에서 특히 유용하다.20

일반적으로 동일한 예측에 대해 CER은 WER보다 낮게 측정되는 경향이 있다. 예를 들어, 한 단어에 오타가 있는 경우 WER은 20%가 될 수 있지만 CER은 5%에 불과할 수 있다.20

2.3 WER과 CER의 선택 기준

WER과 CER 중 어떤 지표를 사용해야 하는지는 평가 대상 언어의 특성과 평가의 구체적인 목표에 따라 달라진다.

언어의 형태론적 특성: 영어와 같이 띄어쓰기를 기반으로 단어가 명확하게 구분되는 굴절어의 경우, WER이 오랫동안 표준 지표로 사용되어 왔다.26 반면, 앞서 언급했듯이 단어 구분이 모호한 언어에서는 CER이 더 적절한 선택이다.19
평가 목표: 만약 평가의 목표가 모델의 문법적, 문맥적 이해도를 포함한 종합적인 언어 처리 능력을 측정하는 것이라면 WER이 더 선호될 수 있다. 예를 들어, “The cat sat on the mat“을 “The cat sit on the mat“으로 예측한 경우, 이는 단순한 철자 오류가 아니라 시제를 잘못 이해한 문법적 오류다. WER은 “sit“을 완전한 대치 오류로 처리함으로써 이러한 문맥적 이해 부족에 대해 더 큰 패널티를 부과한다.19 반면, 문자 수준의 정밀도가 더 중요한 작업(예: 주소나 주민등록번호 인식)에서는 CER이 더 중요한 지표가 될 수 있다.
최신 연구 동향: 전통적으로 영어 중심의 ASR 연구에서는 WER이 지배적인 지표였으나, 다국어 ASR 연구가 활발해지면서 이러한 관점에 변화가 생기고 있다. 최근 연구에 따르면, CER이 다양한 서기 체계(writing systems)에 걸쳐 더 일관된 성능을 보이며, 심지어 영어에서도 인간의 주관적인 평가 결과와 WER보다 더 높은 상관관계를 보인다는 주장이 제기되었다.26 이는 다국어 환경을 고려하는 현대의 ASR 평가에서는 CER을 주 평가 지표로 사용하거나, 최소한 WER과 CER을 함께 보고하여 성능을 다각적으로 분석해야 할 필요성을 시사한다.

궁극적으로 WER과 CER은 모델 성능의 서로 다른 측면을 조명한다. WER이 단어라는 의미 단위의 정확성에 초점을 맞춘다면, CER은 텍스트의 표면적 형태의 정확성에 더 집중한다. 두 지표는 상호 보완적인 관계에 있으며, 함께 사용될 때 모델의 성능에 대한 더 완전하고 균형 잡힌 시각을 제공할 수 있다.20

이러한 지표들은 모델의 정확도를 측정하는 강력한 도구이지만, 그 본질적인 한계를 이해하는 것이 매우 중요하다. WER과 CER은 예측 텍스트와 정답 텍스트 간의 표면적인 문자열 거리를 측정할 뿐, 그 차이가 정보의 전달과 해석에 미치는 실질적인 영향을 전혀 고려하지 않는다. 예를 들어, “나는 5살입니다“를 “저는 다섯 살입니다“로 변환하는 것은 의미상 완전히 동일하지만, 텍스트 정규화 규칙에 따라서는 매우 높은 WER을 기록할 수 있다.27 반대로, “이 메시지는 확인되었습니다“를 “이 메시지는 확인되지 않았습니다“로 변환하는 것은 단 하나의 단어 오류에 불과하지만, 의미를 180도 바꾸는 치명적인 실수다. 이는 WER/CER 점수만으로 모델의 실질적인 유용성이나 신뢰성을 판단하는 것이 얼마나 위험할 수 있는지를 보여준다. 따라서 정량적인 지표와 더불어, 오류의 유형을 분석하고 실제 사용 사례에 미치는 영향을 평가하는 정성적 분석을 병행하는 것이 필수적이다.

3. 실시간 성능 및 효율성 지표

현대의 STT 기술은 단순히 정확하게 텍스트를 변환하는 것을 넘어, 사용자와의 실시간 상호작용을 원활하게 지원해야 하는 과제를 안고 있다. 실시간 자막, 음성 비서, 동시통역과 같은 애플리케이션에서는 응답 속도가 정확도만큼이나 중요한 사용자 경험 요소다. 따라서 STT 모델의 성능을 평가할 때는 정확도 지표와 함께 실시간 성능 및 효율성을 측정하는 지표를 반드시 고려해야 한다.

3.1 실시간 계수 (Real-Time Factor, RTF)

3.1.1 정의

실시간 계수(RTF)는 STT 시스템의 처리 속도를 측정하는 가장 대표적인 지표다. 이는 특정 길이의 오디오를 처리하는 데 소요된 시간을 해당 오디오의 실제 길이로 나눈 값으로 정의된다.28

$RTF = \frac{\text{Processing Time}}{\text{Audio Duration}}$
예를 들어, 1분(60초) 길이의 오디오 파일을 처리하는 데 30초가 걸렸다면, RTF는 30 / 60 = 0.5가 된다. 이는 실시간보다 2배 빠른 속도로 처리했음을 의미한다.

3.1.2 해석

RTF 값은 시스템의 처리 속도를 직관적으로 나타낸다.

$RTF < 1$ : 시스템이 실시간보다 빠르게 오디오를 처리하고 있음을 의미한다. 예를 들어 RTF가 0.5라면, 실제 오디오 재생 속도의 절반의 시간만으로 처리가 완료된다는 뜻이다.
$RTF = 1$ : 시스템이 오디오를 실시간으로, 즉 오디오가 재생되는 속도와 동일한 속도로 처리하고 있음을 의미한다.
$RTF > 1$ : 시스템의 처리 속도가 오디오 입력을 따라가지 못하고 있음을 의미한다. 예를 들어 RTF가 2라면, 1분짜리 오디오를 처리하는 데 2분이 걸린다는 뜻이며, 이 경우 실시간 처리는 불가능하다.28

실시간 대화형 애플리케이션이나 라이브 스트리밍 자막과 같은 서비스에서는 사용자가 지연을 느끼지 않도록 하기 위해 RTF가 반드시 1 이하, 가급적이면 훨씬 낮은 값을 유지해야 한다.28

3.1.3 측정 시 고려사항

RTF는 모델의 알고리즘 효율성뿐만 아니라, 모델이 실행되는 하드웨어 및 네트워크 환경에 크게 의존하는 지표다.

하드웨어 의존성: 동일한 모델이라도 CPU의 클럭 속도, 아키텍처(x64, ARM 등), 사용 가능한 메모리 용량에 따라 RTF는 크게 달라질 수 있다.28 따라서 RTF를 측정할 때는 반드시 테스트 환경의 사양을 명시해야 한다.
네트워크 의존성: 클라우드 기반 STT 서비스를 사용하는 경우, 오디오 데이터를 서버로 전송하고 결과를 수신하는 데 걸리는 네트워크 지연 시간이 전체 처리 시간에 포함되므로, 네트워크 대역폭과 안정성이 RTF에 영향을 미친다.30
측정의 일관성: 정확한 RTF 측정을 위해서는 마이크를 통한 실시간 입력보다는, 사전에 준비된 오디오 파일을 입력으로 사용하여 변수를 통제하는 것이 권장된다.28 또한, CPU 발열에 따른 성능 저하(thermal throttling)와 같은 변동성을 고려하여 여러 번 측정하고 그 분포(예: 평균, 90번째 백분위수)를 분석하는 것이 신뢰도를 높이는 방법이다.28

3.2 지연 시간 (Latency)

3.2.1 정의

지연 시간(Latency)은 사용자의 관점에서 시스템의 응답 속도를 측정하는 지표다. 이는 사용자가 발화를 시작하거나 마친 순간부터 시스템이 의미 있는 출력(예: 변환된 텍스트, 명령어 수행 결과)을 사용자에게 제시하기까지 걸리는 총 시간을 의미한다.10 단위는 보통 밀리초(ms)를 사용한다.

3.2.2 RTF와의 차이

RTF와 지연 시간은 종종 혼용되지만, 개념적으로 뚜렷한 차이가 있다.

처리 방식의 차이: RTF는 주로 전체 오디오 파일을 한 번에 처리하는 배치(batch) 처리 방식의 효율성을 나타내는 데 적합하다. 반면, 지연 시간은 오디오를 작은 단위(chunk)로 나누어 순차적으로 처리하는 스트리밍(streaming) 처리 방식의 실시간성을 평가하는 데 더 중요하다.10
측정 관점의 차이: RTF는 시스템의 ’평균 처리 능력’을 나타내는 반면, 지연 시간은 사용자가 체감하는 ‘최초 응답 시간’ 또는 ’순간 응답 속도’에 가깝다.29

예를 들어, RTF가 0.6인 두 시스템이 있다고 가정하자.

시스템 A는 10초짜리 음성을 끝까지 다 들은 후, 6초 만에 전체 텍스트를 한 번에 출력한다. 이 경우 사용자는 10초(발화) + 6초(처리) = 16초 후에 결과를 보게 된다.

시스템 B는 스트리밍 방식을 사용하여 100밀리초(ms) 단위로 음성을 처리한다. 각 100ms의 음성 조각을 처리하는 데는 60ms가 걸린다(RTF 0.6). 따라서 사용자는 말을 하는 거의 즉시, 수십 ms의 지연 시간만으로 단어들이 순차적으로 나타나는 것을 보게 된다.

두 시스템의 RTF는 0.6으로 동일하지만, 사용자가 체감하는 응답 속도, 즉 지연 시간은 시스템 B가 압도적으로 빠르다.29

3.2.3 사용자 경험에 미치는 영향

지연 시간은 실시간 애플리케이션의 사용성을 결정하는 매우 중요한 요소다. 연구에 따르면, 인간은 약 200-300밀리초 이상의 지연을 인지하기 시작하며, 이보다 긴 지연은 상호작용을 부자연스럽고 답답하게 만든다.10 화상 회의에서 자막이 음성보다 한참 늦게 나타나거나, 음성 비서에게 명령을 내린 후 한참 동안 아무 반응이 없다면 사용자는 큰 불편을 겪게 된다. 따라서 실시간 STT 시스템을 개발하고 평가할 때는 목표 지연 시간을 설정하고 이를 충족하는지 엄격하게 측정해야 한다.

결론적으로, 실시간 STT 시스템의 성능은 단일 지표만으로 온전히 평가될 수 없다. 정확도와 응답 속도는 종종 상충 관계(trade-off)에 있기 때문이다. 예를 들어, 실시간 처리를 위해 오디오를 매우 짧은 단위로 분할하면, 모델이 활용할 수 있는 문맥 정보가 부족해져 정확도(WER)가 떨어질 수 있다.32 반대로, 더 넓은 문맥을 고려하여 정확도를 높이기 위해 오디오 분할 단위를 길게 하면, 그만큼 결과를 출력하기까지의 지연 시간이 길어진다.32

따라서 실시간 STT 모델을 평가하는 이상적인 접근 방식은, 특정 애플리케이션의 요구사항을 먼저 정의하는 것이다. 예를 들어, 실시간 방송 자막은 즉시성이 매우 중요하므로 약간의 정확도를 희생하더라도 지연 시간을 최소화하는 것이 목표일 수 있다. 반면, 회의록 작성 시스템은 실시간성은 다소 떨어지더라도 최종 결과물의 정확도를 극대화하는 것이 더 중요할 수 있다. 이러한 요구사항에 따라, 평가자는 ’지연 시간 대비 WER’과 같은 다차원적인 분석을 통해 다양한 운영 지점(operating points)에서 모델의 성능을 종합적으로 평가하고, 목표하는 사용 시나리오에 가장 적합한 균형점을 찾아야 한다.

4. 평가 데이터셋 구축 및 활용

STT 모델 성능 평가의 신뢰도와 타당성은 전적으로 평가에 사용되는 데이터셋의 품질에 달려있다. 아무리 정교한 평가 지표를 사용하더라도, 데이터셋이 실제 사용 환경을 제대로 반영하지 못하거나 특정 그룹에 편향되어 있다면 평가 결과는 무의미해진다. 따라서 적절한 평가 데이터셋을 선택하고 구축하는 것은 평가 절차의 가장 중요한 첫걸음이다.

4.1 표준 벤치마크 데이터셋 분석

연구 및 개발 커뮤니티에서는 모델 성능을 공정하게 비교하고 재현하기 위해 여러 표준 벤치마크 데이터셋을 사용한다. 대표적인 데이터셋은 다음과 같다.

LibriSpeech: 약 1000시간 분량의 16kHz 샘플링 레이트 영어 오디오북 낭독 음성으로 구성된 대규모 데이터셋이다.33 이 데이터셋은 LibriVox 프로젝트의 공개 도메인 오디오북을 기반으로 제작되었으며, ASR 모델의 학습 및 평가를 위한 표준 벤치마크로 매우 널리 사용된다.33 LibriSpeech의 가장 큰 특징 중 하나는 데이터가 ‘clean’ 세트와 ‘other’ 세트로 나뉘어 있다는 점이다. ‘clean’ 세트는 상대적으로 잡음이 적고 발음이 명확한 고품질 오디오로 구성되어 이상적인 조건에서의 모델 성능을 측정하는 데 사용된다. 반면 ‘other’ 세트는 음질이 다소 떨어지거나 발음이 덜 명확한, 더 도전적인 오디오를 포함하여 모델의 강건성(robustness)을 평가하는 데 활용된다.33
Mozilla Common Voice: 크라우드소싱 방식을 통해 전 세계 자원봉사자들로부터 수집된 대규모 다국어 음성 데이터셋이다.35 이 데이터셋의 가장 큰 장점은 방대한 언어적, 인구통계학적 다양성이다. 수십 개에서 백 개 이상의 언어를 지원하며, 각 음성 데이터에는 기여자가 동의한 경우 연령, 성별, 억양과 같은 메타데이터가 포함된다.38 이러한 풍부한 메타데이터는 모델이 특정 인구 집단(예: 특정 억양을 사용하는 고령의 여성)에 대해 편향된 성능을 보이는지 분석하고, 모델의 일반화 성능과 포용성을 평가하는 데 매우 귀중한 자원을 제공한다.38

이 외에도 다양한 벤치마크 데이터셋이 존재하며, 평가 목적에 맞는 데이터셋을 선택하기 위해서는 데이터의 규모(총 시간), 언어, 음성 도메인(낭독체, 대화체, 방송 뉴스 등), 녹음 환경(소음 수준), 화자 수, 라이선스(상업적 이용 가능 여부) 등을 종합적으로 고려해야 한다.35

4.2 Table 1: 주요 STT 벤치마크 데이터셋 비교

적절한 데이터셋 선택은 의미 있는 평가의 전제 조건이다. 다음 표는 주요 벤치마크 데이터셋의 핵심 특징을 요약하여 평가자가 자신의 목적에 맞는 데이터셋을 쉽게 비교하고 선택할 수 있도록 돕는다.

데이터셋 (Dataset)	총 시간 (Total Hours)	언어 (Language(s))	음성 유형 (Speech Type)	주요 특징 (Key Characteristics)	라이선스 (License)
LibriSpeech	약 1,000 시간	영어	낭독체 (Read)	‘clean’/‘other’ 세트로 음질 구분, 다중 화자, 오디오북 기반	CC BY 4.0
Mozilla Common Voice	26,000+ 시간 (17,000+ 검증됨)	104개 언어	낭독체 (스크립트 기반)	대규모 다국어, 연령/성별/억양 등 인구통계학적 메타데이터 포함	CC0 (Public Domain)
WSJ (Wall Street Journal)	약 80 시간	영어	낭독체 (뉴스 기사)	고품질 녹음, 초기 ASR 연구의 표준 벤치마크	LDC (Linguistic Data Consortium) - 유료
Switchboard	약 300 시간	영어	대화체 (전화 통화)	자연스러운 비공식 대화, 다중 화자 중첩(crosstalk) 포함	LDC - 유료
TED-LIUM	약 450 시간 (v3 기준)	영어	강연체 (TED Talks)	다양한 주제와 억양, 배경 소음 및 청중 반응 포함	CC BY-NC-ND 4.0

4.3 데이터 다양성 및 편향성 문제

4.3.1 중요성

STT 모델의 실제 성능은 학습 및 평가 데이터셋이 얼마나 다양하고 편향되지 않았는지에 의해 결정된다.8 모델은 데이터에 존재하는 패턴만을 학습하기 때문에, 데이터셋이 현실 세계의 다양성을 제대로 반영하지 못하면 모델은 특정 조건에서는 잘 작동하지만 다른 조건에서는 성능이 급격히 저하되는 ‘과적합(overfitting)’ 문제를 겪게 된다. 따라서 데이터 다양성은 모델의 강건성(robustness)과 일반화(generalization) 성능을 확보하기 위한 가장 근본적인 요소다.8

4.3.2 다양성의 차원

STT 평가를 위한 데이터셋은 다음과 같은 여러 차원에서 다양성을 확보해야 한다.

언어적 다양성: 표준 발음뿐만 아니라 다양한 지역적 **억양(accent)**과 **방언(dialect)**을 포함해야 한다.8 또한, 다중 언어 사용 환경에서는 문장 중간에 언어를 바꾸는

코드 스위칭(code-switching) 현상이 빈번하게 발생하므로, 이를 반영한 데이터도 필요하다.8

음향적 다양성: 조용한 스튜디오 환경에서 녹음된 데이터뿐만 아니라, 카페, 길거리, 차량 내부 등 다양한 배경 소음이 존재하는 현실적인 환경의 데이터를 포함해야 한다.9 또한, 고품질 스튜디오 마이크부터 스마트폰, 노트북 내장 마이크까지 다양한

마이크 품질과, 사람마다 다른 발화 속도 및 **음높이(pitch)**도 고려되어야 한다.12

인구통계학적 다양성: 특정 연령대나 성별에 치우치지 않고, 어린이부터 노인까지, 남성과 여성을 균형 있게 포함해야 한다.8 또한, 어휘 선택이나 억양에 영향을 줄 수 있는

사회경제적 배경의 다양성도 모델의 포용성을 높이는 데 기여할 수 있다.8

4.3.3 편향의 결과

데이터셋의 다양성이 부족하면 필연적으로 편향(bias) 문제가 발생한다. 예를 들어, 데이터셋이 주로 표준 영어를 사용하는 20-30대 남성의 음성으로 구성되어 있다면, 이 데이터로 학습 및 평가된 모델은 해당 집단에 대해서는 매우 높은 정확도를 보이겠지만, 다른 억양을 사용하거나, 여성이거나, 고령인 사용자에 대해서는 현저히 낮은 성능을 보일 것이다.8

이러한 성능 불균형은 단순히 기술적인 문제를 넘어, 특정 집단을 정보 접근과 기술의 혜택에서 소외시키는 심각한 사회적, 윤리적 문제로 이어진다.8 따라서 평가 데이터셋을 구축하고 분석할 때, 어떤 집단이 과소 또는 과대 대표되고 있는지 지속적으로 검토하고, 의도적으로 소외된 집단의 데이터를 수집하여 포함하려는 노력이 필수적이다.

결론적으로, 평가 데이터셋은 모델의 현재 성능을 측정하는 단순한 ’자’의 역할을 넘어선다. 잘 설계된 평가 데이터셋은 모델이 미래에 실제 환경에서 마주하게 될 예측 불가능한 상황들을 미리 시뮬레이션하는 ’가상 훈련장’과 같다. 단순히 평균적인 성능을 측정하는 것을 넘어, 의도적으로 모델이 어려워할 만한 케이스들, 예를 들어 특정 희귀 억양, 시끄러운 환경에서의 다중 화자 대화, 전문 용어가 섞인 발화 등으로 구성된 ’챌린지 셋(challenge set)’을 구축하여 평가하는 것은 매우 중요하다. 이러한 ’스트레스 테스트’를 통해 우리는 모델의 현재 점수를 확인하는 것을 넘어, 잠재적인 실패 지점을 사전에 파악하고, 모델의 강건성을 향상시키기 위한 구체적인 개선 방향을 설정할 수 있다. 이처럼 평가 데이터셋을 구축하는 행위는 수동적인 측정 활동이 아니라, 모델의 미래 성능 저하를 예방하고 기술의 신뢰성을 높이는 능동적이고 전략적인 과정으로 이해되어야 한다.

5. 체계적인 성능 평가 절차

신뢰할 수 있고 재현 가능한 STT 모델 성능 평가를 위해서는 즉흥적인 테스트가 아닌, 잘 정의된 절차에 따른 체계적인 접근이 필수적이다. 이 장에서는 평가 목표 설정부터 결과 분석에 이르기까지, 단계별 워크플로우와 각 단계에서 고려해야 할 핵심 원칙들을 상세히 설명한다.

5.1 평가 워크플로우 6단계

일반적인 STT 성능 평가는 다음의 6단계로 구성된다.11

테스트 샘플 선택 (Choose a test sample): 평가의 첫 단계는 목적에 부합하는 대표성 있는 오디오 샘플을 수집하는 것이다. 이 샘플은 모델이 실제 사용될 환경의 특성(예: 소음 수준, 사용자의 억양, 대화의 종류)을 최대한 반영해야 한다. 통계적으로 유의미한 결과를 얻기 위해, 일반적으로 최소 30분에서 최대 3시간 분량의 오디오를 사용하는 것이 권장된다.11
정답 텍스트 생성 (Create ground truth transcripts): 수집된 오디오 샘플에 대해 인간 전문가가 직접 듣고 받아쓰는 과정을 통해 100% 정확한 ‘정답(ground truth)’ 텍스트를 생성한다. 이 정답 텍스트는 이후 모든 평가의 기준점이 되므로, 그 품질이 전체 평가의 신뢰도를 좌우한다.11
모델 예측 수행 (Run ASR service): 평가하고자 하는 STT 모델(또는 여러 모델)을 사용하여 준비된 오디오 샘플을 텍스트로 변환한다. 이 결과물이 ‘가설(hypothesis)’ 텍스트가 된다.11
텍스트 정규화 (Normalize transcripts): 2단계에서 생성된 정답 텍스트와 3단계에서 생성된 예측 텍스트 모두에 대해 일관된 텍스트 정규화 규칙을 적용한다. 이는 평가의 공정성을 확보하기 위한 필수적인 전처리 과정이다.11
오류율 계산 (Calculate WER/CER): 정규화된 정답 텍스트와 예측 텍스트를 비교하여, 2장에서 설명한 WER 또는 CER과 같은 평가 지표를 계산한다. 이를 위해 JiWER, NIST SCTK와 같은 오픈소스 도구를 활용할 수 있다.11
결과 분석 및 평가 (Assess the measurement): 계산된 오류율 수치를 해석하고, 여기서 더 나아가 오류의 유형(대치, 삭제, 삽입)을 심층적으로 분석한다. 이를 통해 모델의 전반적인 성능 수준을 판단하고, 구체적인 약점과 개선점을 도출한다.11

5.2 정답 텍스트(Ground Truth) 생성 원칙

정답 텍스트는 모든 평가의 ’절대 기준’이므로, 그 생성 과정은 매우 신중하고 일관되어야 한다.

품질의 중요성: 정답 텍스트에 오류가 있다면, 이는 마치 부정확한 자로 길이를 재는 것과 같다. 평가 결과 전체의 신뢰도가 훼손되므로, 가능한 한 높은 정확도를 보장해야 한다. 필요하다면 여러 명의 작업자가 교차 검증하는 이중 전사(double-pass transcription) 방식을 고려할 수 있다.43
일관된 전사 규칙 수립: 전사 작업을 시작하기 전에 명확하고 상세한 가이드라인을 수립해야 한다. 이 가이드라인은 다음과 같은 사항들을 정의해야 한다.
숫자 표기법: “네 개“와 “4개”, “이천이십사 년“과 “2024년” 중 어떤 형식으로 통일할 것인가?.43
약어 및 축약어: “Dr.“는 “Doctor“로 확장할 것인가, 그대로 둘 것인가? “St.“는 “Street“로 표기할 것인가?.43
간투어(Filled Pauses): “음…”, “어…“와 같은 의미 없는 발화(filler words)를 포함할 것인가, 제외할 것인가?.11
구두점 및 대소문자: 문장 부호를 포함할 것인가? 문장의 시작을 대문자로 표기할 것인가?

가장 중요한 원칙은, 이 전사 규칙을 평가 대상 모델의 일반적인 출력 형식과 최대한 일치시키는 것이다.43 예를 들어, 모델이 간투어를 출력하지 않도록 설계되었다면, 정답 텍스트에서도 간투어를 제거하는 것이 공정한 비교를 위해 바람직하다.

5.3 텍스트 정규화 (Text Normalization)

5.3.1 목적

텍스트 정규화는 정답 텍스트와 예측 텍스트 간의 비본질적인 차이를 제거하여, 순수하게 모델의 단어 인식 성능만을 공정하게 평가하기 위한 과정이다.11 예를 들어, 정답이 “It’s sunny.“이고 예측이 “it is sunny“일 때, 의미는 동일하지만 정규화 없이는 ’It’s’와 ’it is’가 다른 단어로 취급되어 오류로 계산될 수 있다. 정규화는 이러한 표기상의 차이로 인해 평가 결과가 왜곡되는 것을 방지한다.11

5.3.2 일반적인 정규화 규칙

일반적으로 다음과 같은 정규화 단계들이 포함된다.11

소문자 변환: 모든 알파벳을 소문자로 통일하여 대소문자 차이를 무시한다.
구두점 제거: 쉼표(,), 마침표(.), 물음표(?) 등 문장 부호를 모두 제거한다.
숫자 형식 통일: 숫자를 모두 단어(예: “one”, “two”)로 변환하거나, 모두 숫자(예: “1”, “2”)로 통일한다.
축약형 확장: “isn’t“를 “is not“으로, “I’m“을 “I am“으로 확장하여 일관성을 유지한다.

이러한 정규화 규칙은 평가의 목적과 데이터의 특성에 맞게 조정될 수 있으며, 가장 중요한 것은 정답 텍스트와 예측 텍스트에 동일한 규칙을 일관되게 적용하는 것이다.

5.4 Table 2: 텍스트 정규화 규칙 및 적용 예시

텍스트 정규화의 구체적인 적용 방식을 이해하기 위해 다음 표를 참조할 수 있다. 이 표는 일반적인 정규화 규칙이 원본 텍스트를 어떻게 변환하는지 보여준다.

정규화 규칙 (Normalization Rule)	설명 (Description)	원본 텍스트 (Before)	정규화된 텍스트 (After)
소문자 변환 (Lowercasing)	모든 문자를 소문자로 통일하여 대소문자 차이를 무시한다.	“The quick brown FOX…”	“the quick brown fox…”
구두점 제거 (Punctuation Removal)	문장의 의미에 직접적인 영향을 주지 않는 문장 부호(.,?!) 등을 제거한다.	“Hello, world!”	“hello world”
숫자-단어 변환 (Number to Word)	아라비아 숫자를 해당 언어의 단어 형태로 변환하여 표기법을 통일한다.	“I have 2 cats.”	“i have two cats”
통화/단위 확장 (Currency/Unit Expansion)	기호($)나 단위(km)를 단어로 풀어쓴다.	“It costs $5.50.”	“it costs five dollars fifty cents”
축약형 확장 (Contraction Expansion)	축약된 표현(e.g., I’m, don’t)을 완전한 형태로 확장한다.	“I’m not sure.”	“i am not sure”

5.5 평가 결과의 종합적 해석

평가 지표를 계산한 후에는 그 수치를 올바르게 해석하고 심층적으로 분석하는 과정이 뒤따른다.

가중 평균의 중요성: 여러 오디오 파일로 구성된 데이터셋 전체의 WER을 계산할 때, 단순히 각 파일의 WER을 산술 평균해서는 안 된다. 이는 파일의 길이를 고려하지 않아, 단어가 몇 개 없는 짧은 파일에서 발생한 오류가 전체 결과에 과도한 영향을 미칠 수 있기 때문이다. 올바른 방법은 전체 데이터셋에 걸쳐 발생한 총 오류 수( $S+D+I$ 의 총합)를 전체 정답 단어 수( $N$ 의 총합)로 나누는 것, 즉 각 파일의 단어 수로 가중 평균을 계산하는 것이다.13
오류 유형 분석: 전체 WER 수치만 보는 것은 절반의 분석에 불과하다. 대치( $S$ ), 삭제( $D$ ), 삽입( $I$ ) 오류가 각각 얼마나 발생했는지 그 분포를 살펴보는 것이 중요하다.44 예를 들어, 삭제 오류율이 유독 높다면 모델이 빠른 발화나 특정 음향 환경에서 음성을 놓치고 있을 가능성을 시사한다. 대치 오류가 많다면, 음향적으로 유사한 단어들을 구분하는 데 어려움을 겪고 있음을 의미할 수 있다. 이러한 오류 유형 분석은 모델의 구체적인 약점을 진단하고 개선 방향을 설정하는 데 결정적인 단서를 제공한다.

이러한 체계적인 평가 절차는 일회성 이벤트로 끝나서는 안 된다. 언어는 계속해서 변하고, 새로운 은어와 표현이 등장하며, 사용 환경 또한 달라질 수 있다.7 따라서 STT 모델의 평가는 제품 출시 전에 한 번 수행하고 끝나는 관문 심사가 아니라, 지속적인 통합/배포(CI/CD) 파이프라인의 일부처럼, 새로운 데이터가 수집되고 모델이 업데이트될 때마다 주기적으로 성능을 모니터링하고 관리하는

지속적인 품질 관리(Continuous Quality Management) 프로세스로 접근해야 한다. 이는 MLOps(Machine Learning Operations)의 관점에서, 시간이 지나도 모델의 성능이 저하되지 않고 안정적으로 유지되도록 보장하는 핵심적인 활동이다.7

6. 특정 도메인 STT 모델 평가의 과제와 전략

일반적인 대화를 대상으로 하는 범용 STT 모델과 달리, 의료, 법률, 금융, 기술 등 특정 전문 분야(도메인)를 위한 STT 모델은 고유한 과제에 직면한다. 이러한 도메인 특화 모델의 성능을 정확하게 평가하기 위해서는 범용 모델과는 다른 전략적 접근이 필요하다.

6.1 도메인 특화 평가의 난제

어휘 불일치 (Vocabulary Mismatch): 특정 도메인은 해당 분야에서만 사용되는 고유한 전문 용어(jargon), 약어, 그리고 고유명사들로 가득 차 있다.12 예를 들어, 의료 분야에서는 “아나필락시스 쇼크(anaphylactic shock)“나 “심근 경색(myocardial infarction)“과 같은 용어가, 금융 분야에서는 “양적 완화(quantitative easing)“와 같은 용어가 빈번하게 사용된다. LibriSpeech나 Common Voice와 같은 일반적인 벤치마크 데이터셋은 이러한 전문 용어를 거의 포함하고 있지 않다. 따라서 이러한 범용 데이터셋으로 도메인 특화 모델을 평가하면, 모델이 실제로는 해당 도메인에서 높은 성능을 보임에도 불구하고 어휘 불일치로 인해 WER이 매우 높게 측정되는 결과 왜곡이 발생한다.47
데이터 희소성 및 비용: 도메인 특화 음성 데이터는 수집 자체가 어렵다. 의료 기록이나 법률 상담 내용은 민감한 개인 정보를 포함하고 있어 데이터 확보에 엄격한 규제와 동의 절차가 필요하다.9 설령 데이터를 확보하더라도, 전문 용어를 정확하게 이해하고 전사(transcription)할 수 있는 전문가가 필요하기 때문에 라벨링 비용이 매우 높다. 이로 인해 대규모의 고품질 도메인 특화 학습 및 평가 데이터셋을 구축하는 것은 현실적으로 큰 장벽에 부딪힌다.48
독특한 발화 스타일: 각 도메인은 고유한 발화 스타일이나 대화 구조를 가질 수 있다. 예를 들어, 항공 관제 통신은 매우 빠르고 정형화된 약어로 이루어지며, 법정에서의 증언은 감정적이고 비공식적인 발화와 공식적인 법률 용어가 혼재될 수 있다. 이러한 특수성은 범용 데이터셋에서는 찾아보기 힘든 패턴으로, 모델 평가의 복잡성을 가중시킨다.

6.2 도메인 적응 및 평가 전략

이러한 난제들을 극복하고 도메인 특화 모델을 효과적으로 평가하기 위한 전략은 다음과 같다.

도메인 특화 평가 데이터셋 구축: 가장 이상적이고 직접적인 방법은, 평가하고자 하는 실제 사용 환경과 최대한 유사한 조건에서 소량이라도 고품질의 도메인 특화 평가 데이터셋을 직접 구축하는 것이다.47 비록 규모는 작더라도, 이 데이터셋은 모델의 실제 성능을 가장 정확하게 대변하는 ‘황금 표준(gold standard)’ 역할을 할 수 있다.
전이 학습(Transfer Learning) 및 미세 조정(Fine-tuning) 기반 평가: 대규모의 범용 데이터셋(예: LibriSpeech)으로 사전 학습된(pre-trained) 강력한 기반 모델을 가져와, 상대적으로 소량의 도메인 특화 데이터로 **미세 조정(fine-tuning)**하는 것은 매우 효과적인 접근 방식이다.47 평가는 이 미세 조정 과정 전후의 성능 변화를 측정하는 방식으로 이루어질 수 있다. 예를 들어, 미세 조정 후 도메인 특화 평가셋에서의 WER이 55%에서 76%까지 개선되었다는 식의 정량적 평가가 가능하다.47
유사 라벨링(Pseudo-Labeling) 활용: 라벨링된 도메인 데이터가 극히 부족할 경우, 유사 라벨링 기법을 활용할 수 있다. 이는 먼저 기존의 (범용) 모델을 사용하여 대량의 라벨 없는(unlabeled) 도메인 음성 데이터에 대한 예측 텍스트, 즉 ’유사 라벨’을 생성하는 것이다. 물론 이 라벨들은 오류를 포함하고 있겠지만, 이 중에서 모델의 신뢰도 점수가 높거나 특정 기준(예: 단어 비율, 언어 모델의 perplexity)을 만족하는 데이터를 선별하여 평가 데이터셋을 보강하거나 추가적인 미세 조정에 활용할 수 있다.48
언어 모델(Language Model) 통합 평가: STT 시스템은 보통 음향 모델(Acoustic Model)과 언어 모델(Language Model)로 구성된다. 도메인 특화 성능은 음향 모델뿐만 아니라 언어 모델에 의해서도 크게 좌우된다. 따라서 평가 전략의 일환으로, 도메인과 관련된 방대한 텍스트 코퍼스(예: 의료 논문, 법률 문서)로 학습된 외부 언어 모델을 STT 디코딩 과정에 결합했을 때, 최종 WER이 얼마나 향상되는지를 측정하는 것이 중요하다.47 이는 모델의 음향적 인식 능력과 언어적 문맥 이해 능력을 분리하여 평가하고, 성능 병목 현상이 어디에 있는지 진단하는 데 도움을 준다.

이러한 전략들을 통해, 개발자는 제한된 자원 하에서도 도메인 특화 모델의 성능을 의미 있게 평가하고, 지속적으로 개선해 나갈 수 있다. 도메인 특화 STT 모델의 평가는 단순히 하나의 WER 숫자를 얻는 과정이 아니라, 해당 도메인의 언어적, 음향적 특성을 깊이 이해하고, 이에 맞춰 모델을 적응시켜 나가는 반복적인 최적화 과정으로 이해해야 한다.

이 과정에서 우리는 평가의 패러다임을 한 단계 더 발전시킬 필요가 있다. 도메인 특화 환경에서 중요한 것은 단순히 모든 단어를 똑같은 가치로 정확하게 인식하는 것이 아니라, 해당 도메인에서 정보적 가치가 높은 핵심 정보를 놓치지 않고 포착하는 것이다. 예를 들어, 의료 상담 녹취록에서 “음, 그러니까…“와 같은 간투어의 인식 오류는 사소하지만, 약물 이름이나 복용량(“50밀리그램”)에 대한 인식 오류는 치명적이다. 하지만 표준 WER은 이 두 오류에 동일한 가중치를 부여함으로써 정보의 중요도를 전혀 반영하지 못한다.

따라서 진정한 의미의 도메인 특화 모델 평가는 표준 WER을 넘어서야 한다. 예를 들어, 사전에 정의된 핵심 전문 용어 목록에 있는 단어에 더 높은 오류 가중치를 부여하는 **‘가중 WER(Weighted WER)’**을 도입하거나, 모델의 출력에서 핵심 개체명(의약품, 질병명 등)을 얼마나 정확하게 추출하는지를 측정하는 **‘개체명 인식 F1-점수(Named Entity Recognition F1-Score)’**와 같은 의미 중심적 지표를 함께 사용해야 한다. 이러한 접근은 모델이 단순히 소리를 텍스트로 변환하는 기계적인 작업을 넘어, 해당 도메인의 핵심 정보를 얼마나 잘 ’이해’하고 있는지를 평가하는, 훨씬 더 고차원적이고 실용적인 평가 방식이라 할 수 있다.

7. 결론 및 향후 전망

본 안내서는 인공지능 음성-텍스트 변환(STT) 모델의 성능을 평가하기 위한 포괄적인 방법론을 제시했다. STT 기술이 사회 전반에 미치는 영향력이 커짐에 따라, 그 성능을 정확하고 신뢰성 있게 측정하는 것은 기술 발전과 책임 있는 상용화를 위한 전제 조건이 되었다. 본 보고서에서 논의된 핵심 원칙과 미래 전망을 요약하며 마무리한다.

7.1 신뢰도 높은 STT 모델 평가를 위한 핵심 원칙 요약

성공적인 STT 모델 평가를 위해서는 다음 네 가지 핵심 원칙을 견지해야 한다.

다차원적 접근 (Multi-dimensional Approach): 모델의 성능은 단일 지표로 환원될 수 없다. 변환의 정확성을 나타내는 정확도 지표(WER/CER), 처리 속도와 효율성을 나타내는 효율성 지표(RTF), 그리고 사용자의 체감 응답 속도를 나타내는 **사용자 경험 지표(Latency)**를 종합적으로 고려하여 다차원적인 평가를 수행해야 한다. 특정 애플리케이션의 요구사항에 따라 각 지표의 중요도를 조절하여 균형 잡힌 시각으로 모델을 평가하는 것이 중요하다.
데이터 중심주의 (Data-centric Principle): 평가의 신뢰도는 전적으로 평가 데이터셋의 품질에 의해 결정된다. 데이터셋은 실제 사용 환경을 충실히 반영하는 대표성을 가져야 하며, 다양한 억양, 소음 환경, 인구통계학적 특성을 포괄하는 다양성을 확보해야 한다. 데이터 편향은 기술적 성능 저하뿐만 아니라 사회적 불평등을 야기할 수 있으므로, 이를 경계하고 포용적인 데이터셋을 구축하려는 노력이 지속되어야 한다.
엄격한 절차 (Rigorous Procedure): 평가는 재현 가능하고 공정해야 한다. 이를 위해 평가 샘플 선정부터 정답 텍스트 생성, 모델 예측, 텍스트 정규화, 지표 계산, 결과 분석에 이르는 체계적인 워크플로우를 따라야 한다. 특히, 모든 비교 대상에 일관된 정답 텍스트 생성 규칙과 텍스트 정규화 규칙을 적용하는 것은 평가의 공정성을 담보하는 최소한의 장치다.
맥락적 해석 (Contextual Interpretation): 평가 결과로 나온 숫자 자체에 매몰되어서는 안 된다. 95%의 정확도(5% WER)가 어떤 응용 분야에서는 충분히 높은 수준일 수 있지만, 의료나 법률과 같이 오류의 파급 효과가 큰 분야에서는 용납될 수 없는 수준일 수 있다. 따라서 산출된 지표는 항상 해당 애플리케이션의 요구사항과 오류의 유형 및 심각성을 고려하여 맥락적으로 해석해야 한다.

7.2 현재 평가 방법론의 한계와 미래 연구 방향

현재 STT 평가의 표준으로 자리 잡은 WER과 CER은 매우 유용한 도구이지만, 근본적인 한계를 내포하고 있다. 가장 큰 한계는 의미론적 평가의 부재다. WER/CER은 본질적으로 두 텍스트 문자열 간의 표면적, 편집적 거리를 측정할 뿐이다. 이로 인해 의미적으로는 동일하거나 매우 유사하지만 표현이 다른 경우(예: “오늘 날씨가 정말 좋다” vs. “오늘 날씨가 참 화창하네”)를 불필요한 오류로 처리하는 반면, 문장의 의미를 완전히 반전시키는 치명적인 오류(예: ’not’의 누락)는 다른 사소한 단어 오류와 동일하게 취급한다.

이러한 한계를 극복하고 STT 평가를 한 단계 더 발전시키기 위한 미래 연구는 다음과 같은 방향으로 나아갈 것이다.

의미론적 유사도 기반 지표 개발: 대규모 언어 모델(LLM)의 발전은 텍스트의 의미를 벡터 공간에 표현하는 임베딩(embedding) 기술을 고도화시켰다. 이를 활용하여, 정답 텍스트와 예측 텍스트의 단어 또는 문장 임베딩 간의 코사인 유사도(cosine similarity) 등을 측정함으로써, 표면적 형태가 아닌 **의미론적 동등성(semantic equivalence)**을 평가하는 새로운 지표를 개발하는 연구가 활발해질 것이다. 이는 STT 평가가 ‘형태’ 중심에서 ‘의미’ 중심으로 나아가는 중요한 전환점이 될 것이다.
인간 평가와의 상관관계 극대화: 궁극적으로 STT 시스템의 품질은 인간이 판단한다. 따라서 새로운 자동 평가 지표는 인간의 주관적인 평가(예: 내용의 정확성, 문장의 자연스러움, 가독성) 결과와 얼마나 높은 상관관계를 보이는지를 기준으로 그 유효성이 검증되어야 한다. 인간 평가 데이터를 구축하고, 이를 가장 잘 예측하는 자동화된 지표를 개발하려는 노력이 계속될 것이다.
작업 특화적(Task-specific) 평가 지표: STT가 단순한 받아쓰기를 넘어 정보 요약, 감정 분석, 개체명 인식 등 후속 자연어 처리(NLP) 작업과 결합되는 사례가 늘고 있다. 미래의 평가는 최종적으로 수행하고자 하는 작업의 성공률 관점에서 STT 성능을 측정하는 방향으로 발전할 것이다. 예를 들어, 고객센터 통화 분석 시스템이라면, STT의 WER보다는 통화 내용에서 고객의 불만 사항을 정확히 추출해내는 비율이 더 중요한 평가 지표가 될 수 있다.

결론적으로, STT 성능 평가는 단순한 ’전사(transcription)’의 정확도를 측정하는 단계를 넘어, 모델이 인간의 언어를 얼마나 깊이 ’이해(understanding)’하고, 주어진 과업을 성공적으로 수행하는 데 얼마나 기여하는지를 측정하는 방향으로 진화하고 있다. 이러한 진화는 STT 기술이 더욱 지능적이고, 유용하며, 신뢰할 수 있는 파트너로 자리매김하는 데 핵심적인 역할을 할 것이다.

8. 참고 자료

Speech recognition - Wikipedia, https://en.wikipedia.org/wiki/Speech_recognition
Full article: A scoping review on the use of speech-to-text technology for adolescents with learning difficulties in secondary education - Taylor & Francis Online, https://www.tandfonline.com/doi/full/10.1080/17483107.2022.2149865
Dictation (Speech-to-Text) Technology: What It Is and How It Works | Reading Rockets, https://www.readingrockets.org/topics/assistive-technology/articles/dictation-speech-text-technology-what-it-and-how-it-works
Evaluating the performance of artificial intelligence-based speech recognition for clinical documentation: a systematic review - PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12220090/
Evaluation of Voice Recognition Technology - Construction Industry Institute, https://www.construction-institute.org/evaluation-of-voice-recognition-technology
Speech-to-Text AI: speech recognition and transcription - Google Cloud, https://cloud.google.com/speech-to-text
Measuring Speech Recognition Performance: Metrics and Insights - Waywithwords.net, https://waywithwords.net/resource/measuring-speech-recognition-performance/
Why is Speaker Diversity Critical in Speech Data Collection? - Waywithwords.net, https://waywithwords.net/resource/speaker-diversity-critical-speech-data/
Speech Datasets for Better Speech Recognition & Synthesis - Sapien, https://www.sapien.io/blog/what-makes-a-great-speech-dataset-powering-the-next-wave-of-ai
What is latency in speech recognition, and why does it matter? - Milvus, https://milvus.io/ai-quick-reference/what-is-latency-in-speech-recognition-and-why-does-it-matter
Evaluating an automatic speech recognition service | Artificial Intelligence - AWS, https://aws.amazon.com/blogs/machine-learning/evaluating-an-automatic-speech-recognition-service/
Understanding Word Error Rate (WER) in Automatic Speech Recognition (ASR) - Clari, https://www.clari.com/blog/word-error-rate/
How to evaluate Speech Recognition models - AssemblyAI, https://www.assemblyai.com/blog/how-to-evaluate-speech-recognition-models
Word Error Rate Primer. Everything you need to know about WER… | by James Ross | Kensho Blog, https://blog.kensho.com/word-error-rate-primer-a5808dcf4751
Understanding the Word Error Rate in AI Models | Galileo, https://galileo.ai/blog/word-error-rate-metric
WER - a Hugging Face Space by evaluate-metric, https://huggingface.co/spaces/evaluate-metric/wer
Word error rate - Wikipedia, https://en.wikipedia.org/wiki/Word_error_rate
Two minutes NLP — Intro to Word Error Rate (WER) for Speech-to-Text | by Fabio Chiusano, https://medium.com/nlplanet/two-minutes-nlp-intro-to-word-error-rate-wer-for-speech-to-text-fc17a98003ea
Evaluation metrics for ASR - Hugging Face Audio Course, https://huggingface.co/learn/audio-course/chapter5/evaluation
Character Error Rate (CER): A Friendly, No-Nonsense Guide | WaterCrawl Blog, https://watercrawl.dev/blog/Character-Error-Rate
CER - a Hugging Face Space by evaluate-metric, https://huggingface.co/spaces/evaluate-metric/cer
WER & CER for Measuring Performance of Automatic Speech Recognition - ConvoZen.AI, https://convozen.ai/blog/technical-category/wer-cer-for-measuring-performance-of-automatic-speech-recognition/
Understanding Character Error Rate (CER) for AI Accuracy | Galileo, https://galileo.ai/blog/character-error-rate-cer-metric
Character Error Rate (CER) - SAS Help Center, https://documentation.sas.com/doc/nl/pgmsascdc/v_062/casvta/casvta_transcripterror_details01.htm
What Is CER? Character Error Rate Explained Clearly - aiOla, https://aiola.ai/glossary/character-error-rate/
[2410.07400] Advocating Character Error Rate for Multilingual ASR Evaluation - arXiv, https://arxiv.org/abs/2410.07400
The Problem with Word Error Rate (WER) - Speechmatics, https://www.speechmatics.com/company/articles-and-news/the-problem-with-word-error-rate-wer
Performance evaluations for Embedded Speech - Speech service - Azure AI services, https://learn.microsoft.com/en-us/azure/ai-services/speech-service/embedded-speech-performance-evaluations
Real-time speech recognition: An ASR Manager’s POV - Dialpad, https://www.dialpad.com/blog/real-time-speech-recognition/
Real-time-factor - Open Voice Technology Wiki, https://openvoice-tech.net/index.php/Real-time-factor
Speech Recognition - Devopedia, https://devopedia.org/speech-recognition
Evaluation of real-time transcriptions using end-to-end ASR models - arXiv, https://arxiv.org/html/2409.05674v1
LibriSpeech Dataset, https://datasets.activeloop.ai/docs/ml/datasets/librispeech-dataset/
librispeech - Datasets - TensorFlow, https://www.tensorflow.org/datasets/catalog/librispeech
Word error rate (WER): Definition, & can you trust this metric? - Gladia, https://www.gladia.io/blog/what-is-wer
LIBRISPEECH: AN ASR CORPUS BASED ON PUBLIC DOMAIN AUDIO BOOKS Vassil Panayotov, Guoguo Chen∗, Daniel Povey∗, Sanjeev Khudanpur, https://www.danielpovey.com/files/2015_icassp_librispeech.pdf
Common Voice - Kaggle, https://www.kaggle.com/datasets/mozillaorg/common-voice
mozilla-foundation/common_voice_12_0 · Datasets at Hugging Face, https://huggingface.co/datasets/mozilla-foundation/common_voice_12_0
mozilla-foundation/common_voice_3_0 · Datasets at Hugging Face, https://huggingface.co/datasets/mozilla-foundation/common_voice_3_0
Metadata and versioning details for the Common Voice dataset - GitHub, https://github.com/common-voice/cv-dataset
The People’s Speech: A Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage, https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/202cb962ac59075b964b07152d234b70-Paper-round1.pdf
Accented Speech Recognition: Benchmarking, Pre-training, and Diverse Data, https://research.google/pubs/accented-speech-recognition-benchmarking-pre-training-and-diverse-data/
Measure and improve speech accuracy | Cloud Speech-to-Text Documentation, https://cloud.google.com/speech-to-text/docs/speech-accuracy
Test accuracy of a custom speech model - Azure - Microsoft Learn, https://learn.microsoft.com/en-us/azure/ai-services/speech-service/how-to-custom-speech-evaluate-data
Ground truth curation and metric interpretation best practices for evaluating generative AI question answering using FMEval | Artificial Intelligence - AWS, https://aws.amazon.com/blogs/machine-learning/ground-truth-curation-and-metric-interpretation-best-practices-for-evaluating-generative-ai-question-answering-using-fmeval/
Handling Numeric Expressions in Automatic Speech Recognition - arXiv, https://arxiv.org/html/2408.00004v1
How to Build Domain Specific Automatic Speech Recognition Models on GPUs | NVIDIA Technical Blog, https://developer.nvidia.com/blog/how-to-build-domain-specific-automatic-speech-recognition-models-on-gpus/
Speech Data Selection for Efficient ASR Fine-Tuning using Domain Classifier and Pseudo-Label Filtering - Idiap Publications, https://publications.idiap.ch/attachments/papers/2025/Rangappa_ICASSP2025_2025.pdf